Initial Impressions of ChatGPT’s Agent: Successful, Shaky, and Slow ChatGPT代理的精細化體驗

The Task: Book a Business Lunch
任務：預訂商務午餐

起始提示詞如下：

“Find a restaurant suitable for a business lunch near 3100 Travis St, Houston, TX 77006 for next friday at noon.

“找一家適合商務午餐的餐廳，地址在3100 Travis St, Houston, TX 77006，時間是下週五中午。”

這是故意模仿普通人日常說話的方式但不精確的需求。測試目的是看AI在資訊不足時能否表現良好，以及它是否會主動詢問重要的補充問題。比如：這頓飯的預算是多少？這是與同行的一次輕鬆午餐，還是一場昂貴的慶祝活動？人們將如何到達？足夠的停車空間或便捷的公交？餐廳提供何種食物？參與者有無特殊飲食偏好或限制？總共有幾位參與者？是一對一會面還是需要包間？

然而，ChatGPT並未提問任何補充內容而是直接執行任務

。

Step 1Search for Restaurants搜尋餐廳

ChatGPT用了6分鐘時間、呼叫了96個資訊源（如Yelp、OpenTable、Instagram等），進行了大量搜尋。

✓ GPT會自動關閉網頁幹擾元素（如彈窗、錨點跳轉等）並透過截圖方式記錄關鍵頁面。✓

它推薦了3家餐廳，並生成了比較表格，包含：

菜系型別

用餐氛圍

距離與營業時間

推薦理由

× 但缺少選單與價格。連結跳轉不一致，有時是截圖，有時是網址，體驗不夠直觀。

Step 2Access the Restaurant Website訪問餐廳官網

“Let’s book a table at Brennan’s.”
預訂布倫南餐廳。

× ChatGPT嘗試開啟官網，但被錯誤地重定向至Google地圖頁面。花了55秒後成功解決問題，並表示將繼續。

Step 3Clarify the Guest Count確認人數與過敏資訊

ChatGPT提出確認用餐人數，使用者答覆“兩人”，並補充“其中一人有貝類過敏”。ChatGPT未進一步詢問是誰過敏，也未詢問具體過敏內容，但後續表現令人驚喜。

Step 4Book the Reservation填寫預訂表單

× 耗時過長：整整11分鐘完成操作（人類僅需約2分鐘）；

✓ ChatGPT在處理下拉選單和選擇時間時困難。最初錯選了"12:15"後才糾正。當12:00不可預訂時，自行選擇了12:15並告知變動，同時列出其他可選時間（11:45和12:30）。

✓ ChatGPT聰明地處理了過敏資訊。雖然使用者沒說是誰過敏，它預設是使用者本人，並正確選擇了"貝類過敏"選項。

ChatGPT成功使用了不友好的網頁設計，包括奇怪的滑動按鈕和放在頂部的"儲存"/"取消"按鈕（這種設計連人類都覺得困惑）。儘管如此，ChatGPT還是順利完成了任務。

Step 5Enter Details with Human Intervention人工補全個人資訊

✓ 當表單需要填寫使用者個人資訊時，ChatGPT自動停下並提示使用者接手。這屬於“人類參與其中（human-in-the-loop）”設計，確保AI不擅自處理敏感資料。

× 但網頁視窗解析度較低，填寫體驗不佳，無法放大頁面，稍有不便。

Step 6Submit Reservation提交前確認

✓ 一旦我將控制權交還給 ChatGPT，它花了一分鐘來審查填好的表格，然後問我：“我現在可以繼續提交[預訂]嗎？”這屬於“決策門（decision gate）”，即在執行高風險操作前要求使用者確認。

Step 7Confirm Reservation提交併確認預訂

儘管ChatGPT在填寫和提交預訂表單的過程中出現了超時（超過了網站設定的“10分鐘保留時限”），但餐廳的網站仍然接受了這次預訂，併傳送了確認郵件。

Overall 總結評估

成功之處

ChatGPT確實完成了預訂流程；

能處理複雜網頁、識別控制元件、處理過敏資訊等；

提醒使用者重要資訊、請求確認，保持“人類參與”；

沒有崩潰或放棄任務。

問題與侷限：

缺乏澄清意識：未主動詢問使用者“適合商務午餐”背後的具體含義；

耗時較長：11分鐘用於填寫表單，效率低於人工；

對突發情況處理能力有限：如選單價格缺失、時間不符等；

代理AI處理複雜任務時穩定性有待提升；

若需要支付、處理使用者身份等高風險操作，必須由使用者接手，這削弱了AI替代價值。

The Task: Book a Business Lunch任務：預訂商務午餐